揭秘武林绝学——“听声辨位” | AI公开课
自从华山论AI:气宗还是剑宗更强?丨AI公开课掀起武林纷争以来,爱恨情仇的故事从未停息。传奇仍在继续,新的风暴已经出现——听说目前江湖上最流行的武功神技叫听声辨位,今天我们的AI公开课就来聊一聊这独门绝技的背后需要怎样精奇的骨骼?
为了帮助各位大侠早日习得绝技,本期的AI公开课,我们邀请了科大讯飞资深研发工程师远哥为我们详细揭秘。
主讲老师:远哥
毕业于哈尔滨工业大学,参与和主导过多个语音云项目的研发建设,对语音技术和终端开发有深刻的理解。精通Java、C/C++等多门编程语言。近年来专注智能终端人机交互领域,支持Ninebot、美的空调、优必选、狗尾草等近千家机器人和智能家电厂商。目前带领团队攻关麦克风阵列语音芯片产品的研发工作。
“听声辨位”,顾名思义,就是靠听到的声音辨别声音发出的位置。最简单的例子就是,有人在背后喊你,你总不会一个劲儿朝前找吧~
科学的来说,这是因为人的两个耳朵以及神经系统对于单耳接受到的声音进行特征(包括时间差和强度差)分析和识别,从而得出了位置判断。
“听声辨位”在江湖里可就厉害了,作为一项绝技,它可是大侠们行侠仗义、纵横武林的“杀手锏”!
《射雕英雄传》里的柯镇恶——“听声辨位、发射毒菱”的好手
不过,想要真正在江湖中习得一手上乘的“听声辨位”武功可是困难重重的——听闻讯飞派的听声辨位造诣已炉火纯青,而究其诀窍,恰恰在于使用了能够对声源进行定位的麦克风阵列。
麦克风阵列可以自动检测声源位置,跟踪说话人,声源定位信息既可以用于智能交互,也可以用于后续的空域滤波,对目标方向进行语音增强。因此,不论你在哪个位置出招,只要发出了声音,麦克风阵列就能帮助各位侠士轻松定位,捕捉你的一招一式,行走江湖而立于不败。
麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。其中包括以下两个方面:
远场拾音,指运用远场识别和降噪技术,使拾音距离达到5米。
声源定位,利用麦克风阵列,实现360°语音信号采集,并能通过声源定位来确定目标说话人的方向。
能够定位声源的麦克风阵列
厉害的可不止这点,光听的见可不够,真正的大侠,还需要能够听的清!
能够“听声辨位”的麦克风阵列还具备以下的功能:回声控制,回声消除,回声抑制;去混响;波束形成,声源定位,语音增强,盲源分离,干扰抑制;噪声控制,主动噪声控制,降噪。
麦克风阵列的功能
电影《十面埋伏》中章子怡饰演的小妹通过听声辨位完成了精彩的舞蹈
在这其中,最主要的就是“去混响”了,因为声波要经过多次反射和吸收,最后才消失。大侠需要集中精神,做出最快最正确的反应!
当声源和麦克风之间的距离越远,反射声占的比例就越高,混响就严重。经典的去混响方法包括形成拾音波束来减少反射声和基于反卷积的去混响方法。
去混响的不同方式
讯飞开放平台麦克风阵列产品
当然,功力不同能够应对的场面也不同,真正的大侠可以在极其复杂的环境中,仍然面不改色。为应对不同的环境,讯飞开放平台麦克风阵列产品主要分为二麦、四麦、六麦克风阵列。
六麦环形阵列适用于应用场景较为复杂(例如商场、办公室),对角度定位要求比较高,回声消除和识别率要求较高的机器人和家居产品解决方案。
四麦线性阵列适用于车载,空调,电视,应用型机器人等智能装备,支持0~180°角度定位,回声消除和连续唤醒等功能。
两麦线性阵列对芯片性能要求较低,适用于低成本的智能装备解决方案,支持回声消除和噪声抑制等功能。
麦克风阵列构型
江湖多险恶,绝学傍身很重要。“听声辨位”的神技说难不难,想要炼成,听得远、听得准、听得清缺一不可。有了麦克风阵列这一至尊神器,相信各位大侠行走江湖必然多了几份底气,少了几分担忧!
想了解更多AI公开课的内容,长按识别下方二维码即可↓↓
素材来源于讯飞开放平台